140 research outputs found

    Complexity and duplicity in the digital age : new implications for business and labor management strategy

    Get PDF
    Les sociologues différencient souvent les époques en fonction de la manière dont le commerce est pratiqué (Ashton, 2013 ; Rose, 1991). Souvent, les progrès technologiques modifient la façon dont les parties échangent des biens, un phénomène qui a des conséquences sur le changement d'époque (Wright, 2004). À cet égard, les historiens économiques distinguent généralement l'ère féodale de l'ère industrielle en raison de l'invention de la technologie de la vapeur à la fin du 17e siècle et de son application généralisée au milieu du 18e siècle (Ashton, 2013). La disponibilité du World Wide Web a créé l'ère numérique. Alors que l'ancienne époque de l'ère industrielle limite principalement l'échange de travail dans une période définie, Internet permet l'expansion des paramètres commerciaux. Alors que les universitaires considèrent que l'ère numérique a entraîné des changements substantiels dans le domaine du commerce et des échanges, la plupart des théories sur la gestion (en particulier celles concernant la planification et la stratégie) trouvent leur origine dans l'ère industrielle, c'est-à-dire l'ère précédant l'existence de l'Internet. Malgré les efforts de chercheurs tels qu'Allen et al, (2007), l'éventail complet des options de stratégie compétitive disponibles pour les entreprises modernes n'a peut-être pas été suffisamment délimité. Le présent ouvrage soutient que les technologies basées sur Internet ont influencé l'émergence d'industries distinctement numérique et que, par conséquent, la théorie concernant l'avantage concurrentiel comme celle de Michael Porter doit être réexaminée. Le but de ce travail est de fournir un aperçu conceptuel de l’émergence de la complexité à l’ère numérique et de montrer en quoi ce phénomène émergeant a des implications pour la stratégie en général, mais aussi pour les relations de travail. Le projet a produit des articles scientifiques revus par des pairs dans des revues universitaires classiques. Ces articles traitent des conséquences de la duplicité pour trois types d’acteurs : ceux qui élaborent et mettent en œuvre la stratégie commerciale; les consommateurs; et ceux qui opère dans le marché du travail.Sociologists frequently differentiate eras based on the way commerce is undertaken (Ashton, 2013; Rose, 1991). Often, technological advance changes the way parties exchange goods, a phenomenon that has consequences for epochal change (Wright, 2004). In this regard, economic historians typically differentiate the feudal era from the industrial age because of the invention of the steam technology in the late 17th century and its widespread application in the mid 18th century (Ashton, 2013). The availability of the World Wide Web created the digital era. Whereas the old industrial-age epoch mostly limits work exchange within a defined era, the Internet permits expansion of trading parameters. While scholars mostly consider that in the era of the Internet substantial changes have occurred in relation to commerce and trading, most theories about management (particular those concerning planning and strategy) have their origins in the industrial age, the era before the Internet existed. Despite the efforts of scholars such as Allen et al, (2007) the full range of competitive strategy options available to modern firms may not have been adequately delineated. The present body of work argues that Internet-based technologies have influenced the emergence of distinctively post-modern or digital age industries and that, therefore, theory regarding competitive advantage such as those of Michael Porter must be revisited. The aim of this work is to provide a conceptual overview of the emergence of complexity in the digital era and indicate how this emergent phenomenon has implications for strategy generally and the employment relationship in particular, insofar as technological complexity concerns labor control. The project has produced peer-reviewed scholarly articles in mainstream academic journals. These articles address the consequences of duplicity for three kinds of actors : those who craft and implement business strategy; consumers; and, those in (what is conventional though of as) the labor market

    Metric-Free Natural Gradient for Joint-Training of Boltzmann Machines

    Full text link
    This paper introduces the Metric-Free Natural Gradient (MFNG) algorithm for training Boltzmann Machines. Similar in spirit to the Hessian-Free method of Martens [8], our algorithm belongs to the family of truncated Newton methods and exploits an efficient matrix-vector product to avoid explicitely storing the natural gradient metric LL. This metric is shown to be the expected second derivative of the log-partition function (under the model distribution), or equivalently, the variance of the vector of partial derivatives of the energy function. We evaluate our method on the task of joint-training a 3-layer Deep Boltzmann Machine and show that MFNG does indeed have faster per-epoch convergence compared to Stochastic Maximum Likelihood with centering, though wall-clock performance is currently not competitive

    Training deep convolutional architectures for vision

    Get PDF
    Les tâches de vision artificielle telles que la reconnaissance d’objets demeurent irrésolues à ce jour. Les algorithmes d’apprentissage tels que les Réseaux de Neurones Artificiels (RNA), représentent une approche prometteuse permettant d’apprendre des caractéristiques utiles pour ces tâches. Ce processus d’optimisation est néanmoins difficile. Les réseaux profonds à base de Machine de Boltzmann Restreintes (RBM) ont récemment été proposés afin de guider l’extraction de représentations intermédiaires, grâce à un algorithme d’apprentissage non-supervisé. Ce mémoire présente, par l’entremise de trois articles, des contributions à ce domaine de recherche. Le premier article traite de la RBM convolutionelle. L’usage de champs réceptifs locaux ainsi que le regroupement d’unités cachées en couches partageant les même paramètres, réduit considérablement le nombre de paramètres à apprendre et engendre des détecteurs de caractéristiques locaux et équivariant aux translations. Ceci mène à des modèles ayant une meilleure vraisemblance, comparativement aux RBMs entraînées sur des segments d’images. Le deuxième article est motivé par des découvertes récentes en neurosciences. Il analyse l’impact d’unités quadratiques sur des tâches de classification visuelles, ainsi que celui d’une nouvelle fonction d’activation. Nous observons que les RNAs à base d’unités quadratiques utilisant la fonction softsign, donnent de meilleures performances de généralisation. Le dernière article quand à lui, offre une vision critique des algorithmes populaires d’entraînement de RBMs. Nous montrons que l’algorithme de Divergence Contrastive (CD) et la CD Persistente ne sont pas robustes : tous deux nécessitent une surface d’énergie relativement plate afin que leur chaîne négative puisse mixer. La PCD à "poids rapides" contourne ce problème en perturbant légèrement le modèle, cependant, ceci génère des échantillons bruités. L’usage de chaînes tempérées dans la phase négative est une façon robuste d’adresser ces problèmes et mène à de meilleurs modèles génératifs.High-level vision tasks such as generic object recognition remain out of reach for modern Artificial Intelligence systems. A promising approach involves learning algorithms, such as the Arficial Neural Network (ANN), which automatically learn to extract useful features for the task at hand. For ANNs, this represents a difficult optimization problem however. Deep Belief Networks have thus been proposed as a way to guide the discovery of intermediate representations, through a greedy unsupervised training of stacked Restricted Boltzmann Machines (RBM). The articles presented here-in represent contributions to this field of research. The first article introduces the convolutional RBM. By mimicking local receptive fields and tying the parameters of hidden units within the same feature map, we considerably reduce the number of parameters to learn and enforce local, shift-equivariant feature detectors. This translates to better likelihood scores, compared to RBMs trained on small image patches. In the second article, recent discoveries in neuroscience motivate an investigation into the impact of higher-order units on visual classification, along with the evaluation of a novel activation function. We show that ANNs with quadratic units using the softsign activation function offer better generalization error across several tasks. Finally, the third article gives a critical look at recently proposed RBM training algorithms. We show that Contrastive Divergence (CD) and Persistent CD are brittle in that they require the energy landscape to be smooth in order for their negative chain to mix well. PCD with fast-weights addresses the issue by performing small model perturbations, but may result in spurious samples. We propose using simulated tempering to draw negative samples. This leads to better generative models and increased robustness to various hyperparameters

    Le changement de relation entre affaires étrangères et défense nationale : l'engagement du Canada en Afghanistan

    Get PDF
    Dans le cadre de ce mémoire, nous proposons d'étudier la politique étrangère sous l'angle de l'influence bureaucratique. En particulier, nous chercherons à déterminer quel ministère y exerce une influence. Pendant les années 1990, la relation entre la Défense nationale et les Affaires étrangères est caractérisée par une résistance des premiers au concept dominant de sécurité humaine prôné par les seconds. Nous observons un changement dans cette relation au tournant du 21e siècle. Nous postulerons tout d'abord qu'il existe deux cultures organisationnelles qui distingueraient les « militaires » des « diplomates » tant dans leur compréhension des enjeux politiques que dans la mise en œuvre des décisions. Ensuite, pour mettre à jour l'étude de leur relation, nous proposons l'hypothèse que plusieurs facteurs auraient modifié la politique étrangère et accordé une influence accrue à la Défense nationale au sein de la bureaucratie canadienne. Deux discours, celui des « États faillis » et celui de la coordination gouvernementale, structurent les rôles joués par ces acteurs. De plus, d'un point de vue théorique, cette recherche tentera de complémenter l'approche bureaucratique de Graham Allison avec des éléments du constructivisme critique tel que proposé par Jutta Weldes. Pour cette analyse, nous utiliserons une méthodologie axée sur une série d'entrevues et sur des documents de planification obtenus en vertu de la Loi sur l'accès à l'information. Finalement, nous procéderons à une étude du cas, celui de la mise en œuvre de la politique étrangère du Canada en Afghanistan et de la guerre qu'il livre à Kandahar. Dans cette province, le débat limité au bon ratio entre militaires et membres du personnel civil ignore plusieurs réalités culturelles, historiques et sociales. L'objectif canadien demeure le renforcement d'un modèle étatique contraire à la culture locale. En conclusion, autant l'étude du cas de l'Afghanistan que celle de la politique étrangère soutiennent la thèse d'une décennie où la diplomatie canadienne est en déclin et où une influence accrue est accordée à la Défense nationale.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : Politique étrangère, Diplomatie, Militaire, Canada, Afghanistan

    Improving sampling, optimization and feature extraction in Boltzmann machines

    Full text link
    L’apprentissage supervisé de réseaux hiérarchiques à grande échelle connaît présentement un succès fulgurant. Malgré cette effervescence, l’apprentissage non-supervisé représente toujours, selon plusieurs chercheurs, un élément clé de l’Intelligence Artificielle, où les agents doivent apprendre à partir d’un nombre potentiellement limité de données. Cette thèse s’inscrit dans cette pensée et aborde divers sujets de recherche liés au problème d’estimation de densité par l’entremise des machines de Boltzmann (BM), modèles graphiques probabilistes au coeur de l’apprentissage profond. Nos contributions touchent les domaines de l’échantillonnage, l’estimation de fonctions de partition, l’optimisation ainsi que l’apprentissage de représentations invariantes. Cette thèse débute par l’exposition d’un nouvel algorithme d'échantillonnage adaptatif, qui ajuste (de fa ̧con automatique) la température des chaînes de Markov sous simulation, afin de maintenir une vitesse de convergence élevée tout au long de l’apprentissage. Lorsqu’utilisé dans le contexte de l’apprentissage par maximum de vraisemblance stochastique (SML), notre algorithme engendre une robustesse accrue face à la sélection du taux d’apprentissage, ainsi qu’une meilleure vitesse de convergence. Nos résultats sont présent ́es dans le domaine des BMs, mais la méthode est générale et applicable à l’apprentissage de tout modèle probabiliste exploitant l’échantillonnage par chaînes de Markov. Tandis que le gradient du maximum de vraisemblance peut-être approximé par échantillonnage, l’évaluation de la log-vraisemblance nécessite un estimé de la fonction de partition. Contrairement aux approches traditionnelles qui considèrent un modèle donné comme une boîte noire, nous proposons plutôt d’exploiter la dynamique de l’apprentissage en estimant les changements successifs de log-partition encourus à chaque mise à jour des paramètres. Le problème d’estimation est reformulé comme un problème d’inférence similaire au filtre de Kalman, mais sur un graphe bi-dimensionnel, où les dimensions correspondent aux axes du temps et au paramètre de température. Sur le thème de l’optimisation, nous présentons également un algorithme permettant d’appliquer, de manière efficace, le gradient naturel à des machines de Boltzmann comportant des milliers d’unités. Jusqu’à présent, son adoption était limitée par son haut coût computationel ainsi que sa demande en mémoire. Notre algorithme, Metric-Free Natural Gradient (MFNG), permet d’éviter le calcul explicite de la matrice d’information de Fisher (et son inverse) en exploitant un solveur linéaire combiné à un produit matrice-vecteur efficace. L’algorithme est prometteur: en terme du nombre d’évaluations de fonctions, MFNG converge plus rapidement que SML. Son implémentation demeure malheureusement inefficace en temps de calcul. Ces travaux explorent également les mécanismes sous-jacents à l’apprentissage de représentations invariantes. À cette fin, nous utilisons la famille de machines de Boltzmann restreintes “spike & slab” (ssRBM), que nous modifions afin de pouvoir modéliser des distributions binaires et parcimonieuses. Les variables latentes binaires de la ssRBM peuvent être rendues invariantes à un sous-espace vectoriel, en associant à chacune d’elles, un vecteur de variables latentes continues (dénommées “slabs”). Ceci se traduit par une invariance accrue au niveau de la représentation et un meilleur taux de classification lorsque peu de données étiquetées sont disponibles. Nous terminons cette thèse sur un sujet ambitieux: l’apprentissage de représentations pouvant séparer les facteurs de variations présents dans le signal d’entrée. Nous proposons une solution à base de ssRBM bilinéaire (avec deux groupes de facteurs latents) et formulons le problème comme l’un de “pooling” dans des sous-espaces vectoriels complémentaires.Despite the current widescale success of deep learning in training large scale hierarchical models through supervised learning, unsupervised learning promises to play a crucial role towards solving general Artificial Intelligence, where agents are expected to learn with little to no supervision. The work presented in this thesis tackles the problem of unsupervised feature learning and density estimation, using a model family at the heart of the deep learning phenomenon: the Boltzmann Machine (BM). We present contributions in the areas of sampling, partition function estimation, optimization and the more general topic of invariant feature learning. With regards to sampling, we present a novel adaptive parallel tempering method which dynamically adjusts the temperatures under simulation to maintain good mixing in the presence of complex multi-modal distributions. When used in the context of stochastic maximum likelihood (SML) training, the improved ergodicity of our sampler translates to increased robustness to learning rates and faster per epoch convergence. Though our application is limited to BM, our method is general and is applicable to sampling from arbitrary probabilistic models using Markov Chain Monte Carlo (MCMC) techniques. While SML gradients can be estimated via sampling, computing data likelihoods requires an estimate of the partition function. Contrary to previous approaches which consider the model as a black box, we provide an efficient algorithm which instead tracks the change in the log partition function incurred by successive parameter updates. Our algorithm frames this estimation problem as one of filtering performed over a 2D lattice, with one dimension representing time and the other temperature. On the topic of optimization, our thesis presents a novel algorithm for applying the natural gradient to large scale Boltzmann Machines. Up until now, its application had been constrained by the computational and memory requirements of computing the Fisher Information Matrix (FIM), which is square in the number of parameters. The Metric-Free Natural Gradient algorithm (MFNG) avoids computing the FIM altogether by combining a linear solver with an efficient matrix-vector operation. The method shows promise in that the resulting updates yield faster per-epoch convergence, despite being slower in terms of wall clock time. Finally, we explore how invariant features can be learnt through modifications to the BM energy function. We study the problem in the context of the spike & slab Restricted Boltzmann Machine (ssRBM), which we extend to handle both binary and sparse input distributions. By associating each spike with several slab variables, latent variables can be made invariant to a rich, high dimensional subspace resulting in increased invariance in the learnt representation. When using the expected model posterior as input to a classifier, increased invariance translates to improved classification accuracy in the low-label data regime. We conclude by showing a connection between invariance and the more powerful concept of disentangling factors of variation. While invariance can be achieved by pooling over subspaces, disentangling can be achieved by learning multiple complementary views of the same subspace. In particular, we show how this can be achieved using third-order BMs featuring multiplicative interactions between pairs of random variables
    corecore